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些 类 别 的 流 样 本 数 远 多 于 其 他 类 别 。 这 种 情况 下 ， 分 类 器 虽然 
可 以 了 
贡献 较 大 的 多 数 类 样本 ， 对 少数 类 样本 的 分 类 精度 则 较 低 。 另 一 类 是 对 学 习 算 法 改进 使 之 适用 于 不 平衡 数据 分 类 ， 
前 处 理 数据 类 别 不 平衡 的 方法 主要 分 为 两 类 。 一 类 是 在 分 类 器 ”中 最 常见 的 方法 是 基于 Bagging 的 方法 和 基于 Boosting 的 方法 
| 练 之 前 对 训练 集 进行 重 采样 的 方法 ， 其 基本 思想 是 通过 改变 “例如 将 SMOTE 重 采 样 与 Bagging 集成 学 习 相 结合 的 
练 集 的 类 别 分 布 来 消除 或 降低 数据 集 不 平衡 程度 ， 典 型 的 有 ”SMOTEBagging 算法 []。 还 有 将 重 采 样 方法 与 AdaBoost.M2 相 
SMOTED 算 法 /SBC 算法 中 ，SCUT 算法 外 等 。 以 上 的 重 采样 算 。 结合 进行 改进 的 集成 学 习 算 法 也 被 相继 提出 , AdaBoost.M2s1f 
法 大 都 是 针对 两 类 不 平衡 问题 进行 研究 ， 而 文献 [5,6] 表 明 针 对 ”为 多 类 集成 学 习 算法 ， 虽 然 具 有 
两 类 不 平衡 问题 的 重 采样 算法 无 法 有 效 解决 多 类 不 平衡 问题 其 毕竟 没有 考虑 到 样本 多 类 不 平衡 的 影响 ， 因 此 文献 [9] 提 i 
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摘 要 : 针对 AdaBoost。M2 算法 在 解决 多 类 不 平衡 协议 流量 的 分 类 问题 时 存在 不 足 ， 提 出 一 种 适用 于 因特网 协议 流 
量 多 类 不 平衡 分 类 的 集成 学 习 算 法 RBWS-ADAM2， 本 算法 在 AdaBoost。M2 每 次 迭代 过 程 中 ,设计 了 基于 权重 的 随 
机 平衡 重 采样 策略 对 训练 数据 进行 预 处 理 ， 该 策略 利用 随机 设置 采样 平衡 点 的 重 采 样 方式 来 更 改 多 数 类 和 少数 类 的 样 
本 数目 占 比 ， 以 构建 多 个 具有 差异 性 的 训练 集 ， 并 将 样本 权重 作为 样本 筛选 的 依据 ， 尽 可 能 保留 高 权重 样本 ， 以 加 强 
对 此 类 样本 的 学 习 。 在 国际 公开 的 协议 流量 数据 集 上 将 RBWS-ADAM2 算法 与 其 他 类 似 算法 进行 实验 比较 表明 ， 相 比 
于 其 他 算法 , 该 算法 不 仅 对 部 分 少数 类 的 F-measure 有 较 大 提升 , 更 有 效 提高 了 集成 分 类 器 的 总 体 G-mean 和 总 体 平均 
F-measure， 明 显 增强 了 集成 分 类 器 的 整体 性 能 。 

关键 词 : 流量 分 类 ; 集成 学 习 算 法 ; 多 类 不 平衡 ; 泛 化 性 能 
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Improved AdaBoost.M2 algorithm for multiclass imbalanced protocol traffic 


Zhang Renbin, Zhang Jief, Wu Pei 
(School of Computer & Information, Hefei University of Technology, Hefei 230009, China) 


Abstract: The existing AdaBoost. M2 algorithm are insufficient in protocol traffic multiclass imbalance to solve the problem. 
So, this thesis proposes an ensemble algorithom called RBWS-ADAM?2 for the classification of multiclass internet traffic. 
During each iteration of AdaBoost. M2, this algorithm preprocessed the training dataset by randomly balanced resampling, this 
strategy changed the number of majorities and minorities by randomly setting the sampling balance point to build multiple 
different training datasets. Moreover, this strategy toke sample weight as the basis for sample screening to strengthen the learning 
of this kind of sample. The experimental comparison of RBWS-ADAM2 algorithm and other similar algorithms on the 
internationally published protocol traffic datasets shows that, compared to other algorithms, the proposed RBWS-ADAM2 
algorithm not only improves the F-Measure of most minorities, but increases the overall G-mean and the overall average F- 
measure effectively, and obviously enhances the overall performance of the ensemble classifier. 


Key words: traffic classification; ensemble algorithm; multiclass imbalance; generalization performance 
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引言 _ 


并 且 部 分 针对 两 类 不 平衡 问题 的 如 


ey 


采 


样 算法 无 法 直接 用 于 解决 多 类 不 平衡 问题 ， 如 前 述 SBC 算法 ， 
当前 因特网 协议 流量 中 存在 严重 的 多 类 不 平衡 问题 由， 某 ” 此 外 对 于 类 似 SMOTE 算法 的 过 采样 或 欠 采 样 算法 ， 采 样 比例 


是 
区 得 较 高 的 总 体 分 类 精度 ， 但 往往 偏向 于 对 总 体 分 类 精度 。 “合适 的 采样 比例 可 能 不 同 也 不 容易 确定 。 


训 


影响 分 类 器 最 终 性 能 的 关键 因素 ， 但 是 对 于 不 同 数据 集 ， 最 


TI 


相对 较 优 的 整体 性 能 ， 但 


秋 
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SMOTEBoost 算法 ， 该 算法 
算法 为 少数 类 构建 新 样本 ， 
是 该 算法 的 最 优 过 采样 比例 很 难 确定 ， 若 设置 过 小 则 


在 基 分 类 器 学 习 之 前 运用 SMOTE 
以 提高 训练 集中 少数 类 的 比重 ， 但 
无 法 达到 


预 


a 


期 效果 ， 若 设置 过 


] SMOTE 过 采样 进行 样本 


大 则 可 能 导致 分 类 器 过 拟 合 ， 并 且 过 度 利 
扩充 ， 可 能 带 来 严重 的 样本 重 磊 和 


Nuill 


噪声 问题 09。 文献 [11] 提 出 了 RUSBoost 算法 , 该 算法 在 基 分 类 


器 学 习 之 前 运 | 
降低 数据 的 不 平衡 程度 ， 却 可 能 由 于 其 


随机 各 可 以 


随机 性 而 误 删 有 用 的 多 


欠 采 样 


| 除 部 分 多 数 类 样本 ， 该 策 


数 类 样本 ， 影 响 到 分 类 器 对 多 数 类 的 分 类 效果 。 还 有 部 分 算法 


采样 算法 来 平衡 数据 集 ， 


例如 文献 [12] 提 出 了 基 


不 依赖 任何 
区 


于 数据 分 


的 
每 次 训练 基 分 类 器 时 取 其 中 一 份 与 少数 类 合并 作为 新 训练 集 ， 


集成 学 习 算法 , 该 算法 ; 


等 多 数 类 样本 分 为 若干 份 ， 


精度 ， 


虽然 其 避免 了 使 用 
多 数 类 中 的 部 分 样本 ， 可 
并 且 其 分 区 策略 只 适 / 
很 好 解决 多 类 不 平衡 问题 。 
综 上 所 述 , 为 


半 算 法 ， 但 是 每 次 基 分 类 器 只 能 学 习 到 
能 会 降低 集成 分 类 器 对 多 数 类 的 分 类 
] 于 二 类 不 平衡 的 情况 ， 因 此 无 法 


兽 强 AdaBoost.M2 算法 在 面 对 多 类 不 平衡 协 


议 流量 时 的 整体 分 类 性 能 ， 缓 解 多 类 不 平衡 对 少数 类 分 类 的 影 


响 ， 本 文 提出 一 种 基于 随机 平衡 重 采 样 的 改进 AdaBoost.M2 集 
成 学 习 算 法 -RBWS (random balance sampling based on weighting) 
-ADAM2 (AdaBoost.M2)， 本 算法 通过 在 AdaBoost.M2 每 次 从 


代 前 对 训练 集 进行 基于 样本 权重 的 随机 平衡 重 采 样 来 提升 分 类 


器 对 于 少数 类 


影响 。 在 数据 预 处 理 过 程 中 ， 本 算法 首先 随机 确定 各 多 数 类 逢 
各 少数 类 的 样本 占 比 ， 昨 

成 新 训练 集 以 增 大 训练 集 之 间 的 差异 性 ， 有 利于 提升 分 类 器 上 
泛 化 性 能 。 上 出 
采样 策略 相 结合 ， 
不 足 ， 同 时 本 算法 将 样本 权重 作为 唯 
扩充 或 保留 各 类 别 中 高 权重 样本 ， 进 而 保证 分 类 器 对 此 类 样 


的 充分 学 习 。 


上 外， 在 对 训 


的 分 类 能 力 ， 以 缓解 多 类 不 平衡 问题 对 分 类 器 的 


了 根据 样本 占 比 对 训练 集 进 行 重 采样 玫 


< 


上 


练 集 重 采样 时 ， 本 算法 将 过 采样 
避免 了 单一 使 用 过 采样 或 欠 采 样 可 能 导致 
的 样本 第 选 标准 ， 优 
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张 仁 斌 ， 等 : 


式 欠 采样 方法 ， 首 先 对 单个 多 数 类 所 
有 子 艇 ， 并 按照 子 艇 样本 数目 占 比 分 


有 样本 进行 聚 簇 以 得 到 所 
配 该 子 簇 的 欠 采 样 数 目 ， 


在 各 子 簇 中 按照 样本 权重 排序 进行 欠 
样本 ， 以 保证 分 类 器 对 高 权重 样本 的 
的 伪 代 码 描述 如 下 。 


采样 ， 优 先 删除 权重 小 的 
学 习 。RBWS 重 采样 策略 


Input:dataset S={ (XY1),? ,Gy yylL2 下 ,ifL2 sm}. //k 


为 类 别 数 ，m 为 样本 总 数 


Output: new training dataset 9S’. 


01:M=mk // 计 算 所 有 类 别 样本 数 
02:d=Random( Di M,n, M) // 从 随机 
d 作为 采样 平衡 点 ， 其 中 0<n, <1，1<n， 
的 最 大 样本 数 
03:for eachi{1,? ,k} do: 


的 平均 值 M 
区 间 为 [n, M, n, M] 选 取 随 机 值 


<[Max/M]，Max 为 所 有 类 别 


04: ifn[i] > d: // 类 别 i 样 本 数目 n[ 吕 大 于 4d 

05: additoC // 将 类 别 i 加 入 多 数 类 集合 C 
06: ”else:additoU // 将 类 别 i 加 入 少数 类 集合 U 
07:end for 


08:for each CC do: 


09: num[ G ]=number[ C, ]-d 

10: 

的 总 数 

11: clusters=Cluster(C, ) // 对 类 别 C， 
clusters 

12: 


for each cluster, clusters do: 
13: num[ cluster, ]-number[ cluster, 


/number[ Cc ]xnum[ GG ] 


// 按 样本 数目 占 比 确定 各 子 簇 的 欠 采 样 数 
要 欠 采 样 的 数目 越 多 
14: 


着 半 一 


T 


1 RBWS-ADAM2 算法 


1.1 


基于 样本 权重 的 随机 平衡 重 采样 策略 


为 提升 AdaBoost.M2 算法 在 多 类 不 平衡 协议 流量 数据 集 上 
的 整体 表现 ， 本 节 设 计 了 针对 AdaBoost.M2 改进 的 重 采样 策略 
RBWS， 该 策略 包括 对 所 有 少数 类 执行 过 采样 和 对 所 有 多 数 类 


执行 从 采 样 两 个 过 程 ， 首 先 通过 计算 所 有 类 别 样本 数 


样 样本 权重 小 的 样本 
1S: 


end for 

16:end for 

17:get C'safter undersampling 
18:for each UU do: 

19: 


20: 


的 平均 


值 来 确定 随机 
根据 采样 平衡 
过 程 中 ， 为 加 


x 间 ， 并 在 随机 区 间 内 随机 确定 采样 平衡 点 ， 再 
点 来 确定 多 数 类 和 少数 类 。 在 对 少数 类 的 过 采样 
大 对 少数 类 中 分 类 错误 样本 的 关注 ， 对 于 每 个 少 


数 类 ， 按 照 


其 所 有 样本 的 权重 大 小 排序 ， 


取 前 一 半 样 本 进行 


SMOTE 过 采样 以 生成 新 样本 。 在 对 多 数 类 的 欠 采 样 过 程 中 , 考 
虑 到 网 络 协议 流量 存在 严重 的 类 内 子 概念 | 
比 小 的 子 概念 可 能 会 被 过 度 采样 ， 所 以 为 保证 欠 采 样 后 多 数 类 
样本 的 总 体质 量 ， 本 策略 采取 对 各 多 数 类 进行 基于 权重 的 聚 簇 


3 问题 ， 部 分 样本 占 


行 降序 排序 ， 取 排序 后 前 一 半 样 本 U， 
21: 
22:end for 

23:get TU'after oversampling 
24:return S=C'+UJ 
1.2 RBWS-ADAM2 集成 学 习 算法 


法 的 整体 性 能 和 解决 集成 学 习 算 法 下 
十 分 关键 的 作用 。 本 节 


// 获 取 多 数 类 C 的 欠 采 样 数 
SUM_C= SUM_Ctnum[ C,] //SUM_C 为 所 有 多 数 类 欠 采 样 


// C' 为 多 数 类 从 采样 后 的 样本 细 
num[ U; ]=SUM_C/q // 对 所 有 少数 类 ， 过 采样 数 
除 以 所 有 少数 类 个 数 取 整 ，q 为 少数 类 类 别 数 

get U，by weight // 对 单个 少数 类 所 有 样本 按照 权重 大 小 进 


SMOTE( U; ) // 按 照 aum[ U; ] 对 U' 执行 SMOTE 过 采样 


// TU 为 少数 类 
// 将 C' 与 T 合并 得 到 新 训练 集 S 


RBWS-ADAM2 算法 基本 思想 就 是 在 


的 所 有 样本 聚 徐 ， 得 到 艇 自 


Vs 


] 


， 样 本 数目 越 多 的 子 禾 需 


undersampling cluster，by weight // 在 每 个 子 驴 中 优先 欠 采 


7 


为 SUM_C 


过 采样 后 的 样本 


7 中 


研究 0 表明 增加 训练 数据 的 差异 性 对 于 提升 集成 学 习 算 


临 的 数据 集 不 平衡 问题 起 
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AdaBoost.M2 每 次 迭代 过 程 中 运用 前 述 RBWS 重 采 样 策略 进行 
数据 预 处 理 ， 从 而 在 缓解 数据 不 平衡 的 同时 增 大 训练 集 的 差异 
性 。AdaBoost.M2 算法 有 两 种 权重 处 理 方式 ， 分 别 是 Boosting 
by reweighting 053 和 Boosting by resampling[15] 。 
reweighting 方式 要 求 基 分 类 器 可 以 直接 训练 带 权重 的 训练 集 
其 优点 是 所 有 样本 都 会 参与 分 类 器 训练 ， 但 是 该 方式 并 未 考虑 
多 类 不 平衡 的 影响 ， 并 且 由 于 训练 集 所 有 样本 都 参与 训练 ， 每 
次 欠 代 之 间 的 训练 集 缺 乏 差异 性 ， 无 法 有 效 提 升 集成 分 类 器 的 
泛 化 性 能 。Boosting by resampling 方式 的 基本 思想 是 每 次 迭代 
通过 对 训练 集 进行 基于 样本 权重 的 有 放 回 随机 抽样 来 构造 新 训 
练 集 ， 该 方式 虽然 对 基 分 类 器 没有 特殊 要 求 ， 但 是 可 能 存在 同 
一 样本 被 重复 先入 的 情况 ， 若 某 类 别 中 含有 过 多 的 困难 样本 ， 
则 采样 后 的 新 训练 集中 可 能 某 一 类 别 的 样本 数目 过 多 ， 从 而 导 
致 分 类 器 过 拟 合 。 本 算法 是 基于 reweighting 的 方式 对 样本 权重 
进行 利用 ,首先 对 训练 集 进行 RBWS 重 采 样 , 在 重 采样 后 更 新 
新 训练 集 的 样本 权重 D, 时 , 设置 新 训练 集 S, 中 属于 原 训练 集 S 
的 样本 的 权重 不 变 ， 将 新 样本 的 权重 设 为 统一 值 m，m 为 初 
6 训练 集 S 的 样本 总 数 。 接 下 来 利用 S 和 D 进行 基 分 类 器 
的 训练 ， 最 后 计算 基 分 类 器 的 伪 误 差 8。， 并 对 权重 分 布 进行 
更 新 。 经 过 T 次 迭代 训练 ,得 到 最 终 的 集成 分 类 器 HH 。RBWS- 
ADAM2 算法 的 伪 代 码 描述 如 下 。 

JInput:dataset S={(X1,y1),7 ,Cnyn))} ， 
//k 为 类 别 数 ，m 为 样本 总 数 


Output: integrated classifier H. 


Boosting by 


yA1,? k}, i{1,7? ,m}: 


01:for each i{1,? ,m} do: 

02: ”DD,(i)=1/m ”// 初 始 化 样本 分 布 权 重 
03: ”Wi=Di(i)/(k-1) /初始 化 权重 向 量 ， 权 重 向 量 W 的 上 标 1 
代表 是 第 1 次 达 代 ，j 是 样本 的 序号 ，y 是 样本 的 类 别 标签 ， 不 包括 
yi’ Wyzy 


04:end for 

05:for each ft{1,? ,T} do: 

06: foreach if1,? ,m} do: 

07: W=W+ W // 求 和 > Wi 
1 

08: end for 

09: foreach if1,? ,m} do: 


10: qi (iy)=W /Wi // 计 算 样本 标签 权重 ， 其 中 
Wi= 2 Ww iy» Vy yi 
yAyi 
11: D,()=Ws/W /计算 样本 分 布 权重 
12: end for 


13: ”S,=RBWS(S) // 运 
处 理 得 到 新 训练 集 S， 

14: foreachjS &&j¢ S do: 

15: D,(j)=lm /设置 采样 过 程 中 产生 的 新 样本 权重 
l/m ， 原 有 样本 的 权重 保持 不 变 


RBWS 重 采 样 策略 对 训练 集 S 进行 预 


len 
过 
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16: end for 
17: get D， // 得 到 新 训练 集 的 样本 权重 分 布 D， 


18: “h,=Train(D, ,S, ) // 利 用 
基 分 类 器 h， 
19: foreach i{1,? ,m} do: 


D, 和 S, 进行 基 分 类 器 训练 ， 得 到 


20: £1=8,+D, (1-h, iy;)+ > qh Xi,y)) // 计 算 基 分 


yAyi 

类 器 h, 的 伪 误差 6， 
21: end for 
22: 6 = 工 。 // 得 出 伪 误 差 6 

t 2 t t 
23: B=g./(1-e.) // 计 算 B 
24. foreach i{1,? ,m} do: 
25: We =WiB, Drh(xiyi)hGiy) ”// 更 新 权重 
26: endfor 
27:end for 


T 
28:return H(x)=aremax Dle Sh (xy) //T 次 循环 结束 后 ， 输 出 


t=1 t 


最 终 的 集成 分 类 器 H， 并 运用 测试 样本 进行 测试 ， 通 过 投票 的 方式 得 
到 分 类 结果 


2 ”实验 与 分 析 


2.1 实验 设置 

本 文 实验 采用 的 两 个 共享 因特网 流量 数据 集 分 别 为 
Cambridgel04 和 Cambridge207。Cambridgel 和 Cambridge2 流 
量 数 据 集 均 取 自 剑桥 大 学 的 研究 网 站 ， 其 中 Cambridgel 包括 
ENT1，ENT2，...，ENT10 和 ENT12 共 11 个 子 数据 集 ， 
Cambridge2 包括 day1，day2，day3 和 siteb 共 四 个 子 数据 集 ， 
本 文选 取 其 中 entl ，ent2，dayl 和 day2 共 四 个 数据 集 进 行 对 比 
实验 ， 数 据 集 entl 中 各 类 别 样本 数目 如 表 1 所 示 ， 可 以 看 出 各 


类 别 样本 数目 存在 严重 的 不 平衡 。 
表 1 数据 集 ENTI 各 类 别 样本 数目 
类 别 数目 类 别 数 

WWW 18211 MAIL 4146 
FTP-PASV 43 ATTACK 122 
DATABASE 238 FTP-DATA 1319 
SERVICES 206 MULTIMEDIA 87 
FTP-CONTROL 149 P2P 339 


实验 中 所 有 参与 比较 的 算法 分 别 为 AdaBoost.M2- 
reweighting( 简 称 ADAM2-rewei), AdaBoost.M2-resampling( 简 称 
ADAM2-resam)，SMOTEBoost( 简 称 SB- 采 样 比例 100%)， 
SMOTEBoost( 简 称 SB- 采 样 比例 200%), SMOTEBoost( 简 称 SB- 
采样 比例 500%)，RUSBoost( 简 称 RB) 和 本 文 RBWS-ADAM2。 
Python 实现 ， 集 成 学 习 算 法 的 迭代 次 数 设 置 为 


实验 采用 


cd A 
CNINAA IVI 只 矿 
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100， 并 选择 最 大 深度 为 5 的 CART 决策 树 作为 所 有 集成 学 习 分 类 误差 也 会 略 有 增 大 。 

算法 的 基 分 类 器 。 实 验 结果 通过 十 重 交叉 验证 获得 。 实 验 评 人 2.2.2 实验 指标 对 比分 析 

分 类 器 性 能 的 指标 包括 总 体 分 类 精度 ,总 体 平 均 F-measure， 总 表 3~6 是 各 算法 在 各 数据 集 上 进行 对 比 实验 的 结果 。 其 中 
体 G-mean 和 单 类 F-measure， 其 中 总 体 平 均 F-measure 是 所 有 总 体 分 类 精度 用 ALL-PRE 表示 , 总 体 G-mean 用 ALL-GMN 表 
类 别 网 络 流 分 类 F-measure 的 平均 值 , 总 体 平均 F-measure 和 总 示 ， 总 体 平均 F-measure 用 ALL-AVG-FM 表示 ， 训 练 时 间 用 T 
体 G-mean 都 可 以 衡量 分 类 器 对 多 类 不 平衡 数据 集 的 分 类 性 能 。 表示 。 


> 


S 


并 


2.2 ”实验 结果 比较 与 分 析 表 3 entl 各 算法 对 比 结果 
2.2.1 Kappa-error 图 算法 ALL-PRE ALL-GMN ALL-AVG-FM TI(s) 
Kappa-error 图 是 衡量 集成 分 类 器 多 样 性 的 重要 表现 形式 ， ADAM2-REW 0.9851 0.8077 0.8597 146.95 
假设 有 一 个 样本 数目 为 N 的 测试 集 和 两 个 分 类 器 Cl 和 C2, 表 ADAM2-RES 0.9839 0.7651 0.8249 150.06 
2 表示 的 是 测试 集中 被 分 类 器 C1 和 C2 分 类 正确 或 错误 的 样本 SB(100) 0.9840 0.7781 0.8444 232.70 
数 ， 例 如 a 为 Cl 和 C2 都 分 类 正确 的 样本 数 ，b 为 C1 分 类 正 0 ES 
ee i ee SB(500 0.9786 0.6672 0.7801 270.97 
确 C2 分 类 错误 的 样本 数 ，abcd 四 项 的 总 和 为 N。 ey 
RB 0.9721 0.8072 0.8267 164.05 
表 2 Cl 和 C2 分 类 情况 示例 本 文 算法 0.9530 0.8508 0.8997 608.85 
C2 correct C2 wrong 
C1 correct a b 表 4 ent2 各 算法 对 比 结果 
Cl wrong g d 算法 ALL-PRE ALL-GMN ALL-AVG-FM TT(s) 
ADAM2-REW 0.9901 0.7952 0.8363 171.17 
两 个 分 类 器 之 间 的 差异 可 以 通过 kk 值 衡 量 ， 计 算 公 式 如 式 ADAM2-RES 0.9897 0.8074 0.8543 142.97 
0) 所 示 。 SB(100) 0.9889 0.8614 0.9102 203.97 
2(ad-be) SB(200) 0.9875 0.7785 0.8696 188.23 
(arbj(brdj+a+o(crg) (D SB(500) 0.9823 0.7075 0.8372 264.69 
a RB 0.9889 0.8964 0.9198 170.64 
k 值 代表 的 是 Kappa-error 图 中 x 轴 , 值 越 小 代表 两 个 分 类 
和 a a 、 本 文 算法 0.9912 0.9072 0.9369 590.0 
器 之 间 差 异性 越 大 。 此 外 ， 可 以 通过 e 值 来 衡量 两 个 分 类 器 的 
平均 误差 , 计算 公式 如 式 (2)。 平均 误差 6 代表 的 是 Kappa-error 表 5 dayl 各 算法 对 比 结果 
图 中 y 轴 error。 算法 ALL-PRE ALL-GMN ALL-AVG-FM  T(s) 
ol/ etd ?于 0O) ADAM2-REW 0.9861 0.8854 0.9001 2850.8 
2.N NN 2N ADAM2-RES 0.9571 0.8989 0.9169 1224.3 
假设 一 个 集成 分 类 器 有 工 个 子 分 类 器 , 则 这 工 个 子 分 类 器 SB(100) 0.9546 0.9002 0.8860 5741.2 
分 类 器 。 本 文 计 算 了 200 个 RBWS-ADAM2 和 200 个 SB(500) 0.9826 0.6667 0.8174 6374.4 
ee RB 0.9809 0.9073 0.8817 2155.2 
AdaBoost.M2 中 子 分 类 器 对 应 的 Kappa-error 点 。 图 1 中 a 图 和 
本 文 算法 0.9566 0.9345 0.9427 9798.3 
b 图 分 别 是 RBWS-ADAM2 和 AdaBoosT.M2 对 应 的 Kappa-error 
图 ， 每 个 图 中 只 包含 200 个 数据 点 。 表 6 day2 各 算法 对 比 结果 
本 Ff 算法 ALL-PRE ALL-GMN ALL-AVG-FM TT(s) 
os ed Se ADAM2-REW 0.9333 0.9431 0.9254 3526.3 
2 004 名 0.04 和 _ Ce pe 和 2 
Ee ay 这 人 ADAM2-RES 0.9338 0.9251 0.9114 2686.9 
~ ' SB(100) 0.9031 0.9384 0.9069 5333.2 
pp AeA SB(200) 0.9201 0.9445 0.9190 6002.2 
(a) ADABOOST.M2 (b) RBWS-ADAM?2 SB(500) 0.9047 0.9332 0.8564 7956.3 
图 1 Kappa-error 图 RB 0.9720 0.9588 0.9496 2598.8 
本 文 算法 0.9060 0.9545 0.9316 9853.1 


如 图 1 所 示 ， 在 Kappa-error 图 1 (b) 中 ，RBWS-ADAM2 
的 数据 点 分 布 相对 于 图 1 (a) 的 AdaBoostM2 在 x 轴 和 yy 轴 方 如 表 3~6 所 示 , 在 数据 集 entl ，ent2 和 dayl 上 ， 相 比 其 他 
向 的 跨度 都 更 大 , 表明 RBWS-ADAM2 的 分 类 器 产生 了 更 大 的 。 算法， 本文 RBWS-ADAM2 算法 在 总 体 G-mean 和 总 体 平均 下 - 
多 样 性 。 此 外 ， 可 以 看 出 图 1 (b〉 中 点 集 分 布 是 倾斜 的 ， 在 y ”measure 两 个 指标 上 均 有 较 大 程度 的 提升 ， 说 明 本 文 算法 对 于 
轴 跨 度 相 对 于 图 1(a) 更 大 , 表明 在 增加 分 类 器 多 样 性 的 同时 ， 解决 集成 学 习 面临 的 多 类 不 平衡 问题 ， 提 升 AdaBoost.M2 算法 


砚 


录用 稿 


的 整体 分 类 性 能 起 了 很 好 的 效果 ， 
文 算法 的 总 体 
是 升 高 达 10% 左 右 。 对 比 总 体 分 类 精度 ， 本 
RBWS-ADAM2 算法 虽然 在 数据 集 ent2 上 最 高 , 但 是 在 其 他 
据 集 上 均 有 所 下 降 , 与 AdaBoost.M2-reweighting 也 基本 保持 


reweighting 


村 别 是 在 数据 集 ent2 上 ， 本 
G-mean 和 总 体 平 均 F-measure 比 AdaBoost.M2- 


文 
数 
在 


张 仁 醋 ， 等 : 


文选 取 100%,200% 和 500% 三 个 采样 立 
表明 ， 不 同 数据 集 的 最 优 采 样 比例 可 能 不 相同 ， 例 如 在 


上 的 表现 都 较为 稳定 ， 


0.01~0.04 的 差距 ， 这 验证 了 图 1 的 分 析 结 论 ， 本 文 算法 对 多 


对 于 RUSBoost 算法 ， 其 在 部 分 数据 集 上 表现 很 好 ， 但 
在 其 他 数据 集 上 出 现 波动 ， 比 如 在 数据 集 DAY2 上 该 算法 的 
项 指标 值 都 是 最 高 ， 但 是 在 数据 集 entl 上 其 总 体 G-mean 和 


1 
化 


类 


据 分 类 性 能 的 提升 是 以 损失 一 定 的 分 类 精度 为 代价 的 。 


[a 
人 下 


| 
已, 


体 平均 F-measure 两 个 指标 均 与 最 高 值 有 较 大 差距 。 对 了 
SMOTEBoost 算法 ， 采 样 比例 是 影响 算法 表现 的 重要 因素 ， 
1 
Ee 
3 0.8 
守 0.7 
EE 0.6 
ol 
0.4 
ADA ADA SB100 SB200 SB500 RB RBWS 
-REWEI -RESAM -ADAM2 


(a) ATTACK 


0.7 


0 
ADA 
-REWEI 


ADA 
-RESAM 


SB100 SB200 


(c) FTP-CONTROL 


ADA ADA 
—REWEI -RESAM 


SB100 SB200 SB500 RB 


(e) MAIL 


ADA ADA 
—REWEI -RESAM 


SB100 SB200 SB500 RB 


(g) P2P 


ADA ADA 
-REWEI -RESAM 


SB100 SB200 SB500 RB 


GD WWW 


F-Measure 
a 
wm © -~ 


本 


分 类 表现 ， 却 也 保持 在 较 高 的 水 平 。 

比 外 ， 从 训练 时 间 的 对 比 可 以 看 出 ， 本 文 算法 的 训 
于 其 他 算法 较 长 ， 出 
比 于 其 他 算法 更 加 复杂 。 为 进一步 分 析 本 文 算法 允 
展示 了 数据 集 entl 上 各 算法 对 各 


相 
辑 相 
分 类 的 提升 效果 , 图 2 
F-measure 对 比 结果 。 


ADA ADA 
-REWEI -RESAM 


SB100 SB200 SB500 


(b) MULTIMEDIA 


ADA ADA 
-REWEI -RESAM 


SB100 SB200 SB500 


(d) SERVICES 


ADA ADA 
-REWEI -RESAM 


SB100 SB200 SB500 RB 


(f) FTP-DATA 


F-Measure 
Fad 
So ol 一 


ADA ADA 
-REWEI -RESAM 


SB100 SB200 SB500 


(h) FTP-PASV 


ADA ADA 
-REWEI -RESAM 


SB100 SB200 SB500 RBWS 


-ADAM2 


0) DB 


图 2 ENT1 上 单 类 流 F-Measure 对 比 


值 进 行 对 比 实验 的 结果 
ent2 上 ， 最 优 的 采样 比例 为 100%， 而 在 数据 集 day2 上 ， 最 优 
的 采样 比例 却 为 200%。 本 文 RBWS-ADAM2 算法 在 所 有 数据 
即使 在 部 分 数据 集中 没有 取得 最 好 的 


练 时 i 
岗 这 种 情况 是 因为 本 文 算法 的 处 理 
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过 
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二 


录用 稿 


图 2 可 得 ， 本 文 RBWS-ADAM2 算法 对 Attack，FTP- 
control，Multimedia 和 P2P 这 四 类 少数 类 协议 的 F-measure 较 
其 他 算法 均 有 较为 显著 的 提升 ， 说 明 本 文 算法 对 部 分 少数 类 的 
分 类 能 力 相 比 于 其 他 算法 有 明显 提高 ， 而 对 其 他 少数 类 或 多 数 
类 ， 本 文 算 法 的 F-measure 也 与 其 他 算法 中 表现 最 优 的 基本 相 
近 ， 例 如 就 DatabasE 而 言 ，SMOTEBoost(200) 的 F-measure 最 
低 ， 而 本 文 RBWS-ADAM2 算法 的 
SMOTEBoost(100) 同 样 处 于 较 高 的 水 平 并 且 差 距 极 小 。 

就 RUSBoost 而 言 , 对 于 大 部 分 少数 类 ,其 F-measure 相对 
于 AdaBoost-reweighting 均 有 一 定 程 度 的 提高 ， 而 对 多 数 类 
WWW，RUSBoost 对 应 的 F-measure 却 略 低 于 其 他 算法 ， 出 现 


F-measure 与 
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张 仁 试 ， 竺 


图 3 可 见 两 种 集成 分 类 器 的 总 体 平均 F-measure 随 着 迭 
代 次 数 增加 而 不 断 提 升 ， 当 迭代 次 数 增加 到 40 之 后 , 折线 上 升 
的 幅度 才 逐 渐变 缓 ， 并 在 数 次 波动 后 趋 于 平缓 稳定 ， 最 终 
AdaBoost.M2 对 应 的 总 体 平 均 F-measure 稳定 在 0.85 左右 ， 而 
本 文 RBWS-ADAM2 对 应 的 总 体 平 均 F-measure 稳定 0.90 左 
右 。 在 折线 上 升 过 程 中 ， 可 以 发 现 当 迭代 次 数 约 小 于 20 时 ， 

RBWS-ADAM2 的 总 体 平均 F-Measure 总 是 低 于 AdaBoost.M2， 
但 随 着 和 迭代 次 数 增加 ，RBWS-ADAM2 逐渐 高 于 AdaBoost.M2 
并 拉 开 差距 直至 最 终 趋 于 稳定 。 可 以 推断 出 现 这 种 现象 的 原因 
是 RBWS-ADAM2 中 构造 的 训练 集 具 有 较 大 差异 性 ， 当 迭代 次 
数 较 低 时 ， 其 无 法 代表 全 部 的 原始 训练 集 ， 并 且 其 差异 性 学 习 


这 种 情况 可 能 是 因为 在 对 多 数 类 随机 从 采样 时 ， 误 删 了 部 分 包 
含有 用 信息 的 样本 ， 影 响 了 分 类 器 对 多 数 类 的 学 习 ， 以 上 分 析 
说 明 虽 然 利 用 随机 欠 采 样 来 平衡 数据 集会 在 一 定 程度 上 提升 对 
部 分 少数 类 的 分 类 能 力 ， 但 是 很 可 能 会 降低 对 多 数 类 的 分 类 效 
果 。 另外 从 图 2 中 SMOTEBoost 三 种 不 同 阔 值 的 实验 对 比 结果 


没有 发 挥 优势 ， 还 可 能 因为 出 现 极端 差异 性 而 影响 分 类 器 的 学 
习 效果 ， 导 致 集成 分 类 器 的 分 类 性 能 甚至 比 不 上 AdaBoostM2 
分 类 器 ， 然 而 随 着 和 迭代 次 数 增加 到 一 定 程度 ， 各 训练 集 在 具备 
差异 性 的 同时 ， 也 具备 覆盖 全 部 原始 训练 集 的 条 件 ， 从 而 保证 
集成 分 类 器 可 以 充分 学 习 到 全 部 原始 训练 数据 ， 因 此 提升 了 算 


可 以 看 出 , 采样 比例 对 SMOTEBoost 的 算法 表现 产生 了 明显 的 
影响 。 其 中 对 于 FTP-control，Multimedia，Database 和 了 2P 四 
类 ,F-measure 随 着 采样 闽 值 的 增加 不 断 降 低 ,说明 对 于 这 四 类 ， 
采样 闪 值 不 需要 超过 100%， 对 于 FTP-DAIA，Mail 和 WWW 
三 类 ， 三 种 采样 闪 值 下 的 算法 表现 相差 不 多 ， 而 Attack，FTP- 
PASV 和 Services 三 类 的 则 分 别 在 500%，200% 和 500% 取 得 最 
高 的 F-measure。 以 上 分 析 表 明 不 仅 对 不 同 数据 集 SMOTEBoost 
算法 的 最 优 采 样 阔 值 不 同 ， 对 不 同类 别 的 最 优 采样 阔 值 也 可 能 
不 同 。 
此 外 ,从 FTP-PASV 的 F-measure 对 比 可 以 发 现 ,AdaBoost- 
resampling 算法 对 应 的 F-measure 出 现 了 远 低 于 其 他 算法 的 情 
况 。 通 过 查看 表 1， 可 以 发 现在 数据 集 entl 中 ，FTP-PASY 的 


[1 


chil 


样本 数目 仅 有 43， 远 少 于 其 他 类 别 。 由 此 可 推断 ， 出 现 这 种 
况 是 因为 AdaBoost-resampling 中 采用 的 有 放 回 随机 
导致 数目 较 少 的 FTP-PASYV 样本 在 重 采样 过 程 中 被 忽略 ， 进 
造成 分 类 器 对 该 类 样本 学 习 不 足 。 

前 述 实 验 中 ， 集 成 学 习 算法 的 迭代 次 数 设置 为 100， 为 探 
究 迭 代 次 数 对 集成 分 类 器 分 类 效果 的 影响 ， 本 文 再 次 设置 迭代 
次 数 为 0 到 100， 利 用 AdaBoost.M2 和 RBWS-ADAM2 对 数据 
攻 entl 进行 训练 与 测试 ， 以 观察 集成 分 类 器 的 总 体 平 均 F- 
measure 随和 迭代 次 数 变化 情况 ， 实 验 结果 如 图 3 所 示 。 
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图 3 总 体 平均 F-measure 随 迭 代 次 数 变化 民 


法 的 整体 性 能 。 

2.3 算法 复杂 度 分 析 

通过 对 本 文 RBWS 重 采样 策略 的 伪 代 码 进行 时 间 复 杂 度 
分 析 ， 得 出 第 03 到 07 行 的 复杂 度 为 O(k)， 第 11 行 的 复杂 度 
为 O(kn?)， 第 12 行 到 15 行 的 复杂 度 为 Odknz )， 第 18 到 22 
行 的 复杂 度 为 Odn)， 其 他 部 分 复杂 度 均 为 常数 级 。 综 上 ,得 出 
RBWS 重 采 样 策略 的 复杂 度 为 O(n? )。 

通过 对 本 文 RBWS-ADAM2 算法 的 伪 代 码 进行 时 间 复 杂 度 
分 析 ， 得 出 第 01 到 04 行 的 复杂 度 为 O(n)， 第 06 到 08 行 的 复 
杂 度 为 O(kn), 第 09 到 12 行 复 杂 度 为 O(kn), 第 13 行 中 RBWS 
重 采 样 过 程 的 复杂 度 为 O(kn?)， 第 14 行 到 16 行 的 复杂 度 为 
OUd9， 第 18 行 基 分 类 器 训练 的 复杂 度 为 O(kn)， 第 19 到 21 行 
的 复杂 度 为 O(kn), 第 24 行 到 26 行 的 复杂 度 为 O(kn)， 其 他 前 
分 复杂 度 均 为 常数 级 。 最 终 得 出 ， 本 文 RBWS-ADAM2 算法 的 
时 间 复 杂 度 为 O( pm? )。 
本 文 算法 和 实验 中 各 算法 的 时 间 复 杂 度 对 比 结果 如 表 7 所 


不 。 
表 7 算法 时 间 复 杂 度 对 比 
算法 复杂 度 算法 复杂 度 
ADABOOSTM2 O(n) RUSBOOST O(n) 
SMOTEBOOST Omn) 本 文 算法 O(n2) 


表 7 可 见 ， 本 文 算法 的 时 间 复 杂 度 为 O(n? )， 较 高 于 其 
他 算法 ， 这 是 因为 本 文 算法 的 处 理 逻 辑 相 对 于 对 比 的 算法 稍 复 
杂 ， 但 从 前 述 实验 结果 可 以 看 出 ， 本 文 算法 取得 了 最 优 的 分 类 


效果 。 


3 ”结束 语 


WT 


本 文 主要 针对 网 络 流量 中 的 多 类 不 平衡 问题 ， 提 出 一 种 集 
成 学 习 算 法 RBWS-ADAM2, 该 算法 在 ADABOOSTM2 每 次 迭 


录用 稿 


代 时 ， 设 计 了 基于 样本 权重 的 随机 平衡 重 采样 策略 来 对 训练 全 
进行 预 处 理 ， 在 解决 数据 多 类 不 平衡 问题 的 同时 ， 增 大 训练 全 
之 间 的 差异 性 以 提升 集成 分 类 器 的 泛 化 性 能 。 在 国际 公开 数 扫 
集 Cambridgel 和 Cambridge2 的 部 分 数据 集 上 进行 对 比 实验 的 
结果 表明 ， 本 文 提 出 的 算法 不 仅 可 以 有 效 提升 集成 分 类 器 对 于 
部 分 少数 类 的 F-Measure， 也 有 效 提升 了 集成 分 类 器 的 总 体 G- 
Mean 和 总 体 平 均 F-Measure， 在 缓解 数据 多 类 不 平衡 对 少数 类 
分 类 影响 的 同时 ， 提 高 了 集成 学 习 算 法 的 整体 泛 化 性 能 ， 使 得 
集成 分 类 器 在 面临 多 类 不 平衡 网 络 流量 时 具备 更 强 的 分 类 能 力 。 
后 期 工作 主要 是 针对 本 文 算 法 训练 时 间 稍 长 的 不 足 进行 优化 。 
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